中文混淆字集應用於別字偵錯模板自動產生 (Chinese Confusion Word Set for Automatic Generation of Spelling Error Detecting Template) [In Chinese]

نویسندگان

  • Yong-Zhi Chen
  • Shih-Hung Wu
  • Chia-Ching Lu
  • Tsun Ku
چکیده

In this research, we proposed a system that can use automatically generated templates for detecting Chinese spelling error. At first, we use frequently used Chinese characters to produce the Chinese confusion set. Based on a dictionary, our system automatically generated negative vocabulary template with the help of Chinese confusion set. Error types include pronunciation-related errors and radical-related errors. And our system uses word segment to capture more accurately the negative template. We hope that such a system can help the teachers on the checking of students’ essays, and also can help students learn to write effectively. Consequently, the students would improve their writing skill.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

應用句型結構與部份樣本樹於對話行為之偵測 (Dialogue Act Detection Using Sentence Structure and Partial Pattern Trees) [In Chinese]

本論文提出一使用部份樣本樹及句型結構於對話行為之偵測。為了建構具強健性的對話 行為偵測模型,我們針對語音辨識之輸出語句,使用部份樣本樹來產生多重候選句,以 避免語音辨識錯誤所衍生句子錯誤之問題。而後再經由剖析器得到候選句所對應之語法 規則。而再針對每一類對話行為所包含的規則做句型分類,來降低對話行為之間的混淆。 最後,利用潛在對話行為矩陣來描述語法規則和意圖之間的關係。另外,在對話系統應 用中,我們採用部份觀察馬可夫決策程序從對話歷程中訓練出之最佳對話策略,以增進 對話系統的可用性。在實驗中,我們建立一個旅遊資訊諮詢對話系統,作為實際應用測 試平台。而在測試時,分別就每項對話行為做測試。相較於應用語義表格(semantic slot) 方法達到之 48.1%正確率,本論文所提之方法可得到整體正確率為 81.9%,提升了 33.8% 的正確率。由實驗可知論文所提之方法在實際應用上能有明...

متن کامل

Detecting Word Ordering Errors in Chinese Sentences for Learning Chinese as a Foreign Language

Automatic detection of sentence errors is an important NLP task and is valuable to assist foreign language learners. In this paper, we investigate the problem of word ordering errors in Chinese sentences and propose classifiers to detect this type of errors. Word n-gram features in Google Chinese Web 5-gram corpus and ClueWeb09 corpus, and POS features in the Chinese POStagged ClueWeb09 corpus ...

متن کامل

Modeling ESL Word Choice Similarities By Representing Word Intensions and Extensions

Automatic error correction systems for English as a Second Language(ESL) speakers often rely on the use of a confusion set to limit the choices of possible correction candidates. Typically, the confusion sets are either manually constructed or extracted from a corpus of manually corrected ESL writings. Both options require the involvement of English teachers. This paper proposes a method to aut...

متن کامل

相似度比率式鑑別分析應用於大詞彙連續語音辨識 (Likelihood Ratio Based Discriminant Analysis for Large Vocabulary Continuous Speech Recognition) [In Chinese]

在近十年來所發展出的自動語音辨識(automatic speech recognition, ASR)技術中,仍 有許多研究者嘗試僅藉由前端處理來產生具有鑑別性的語音特徵,而獨立於後端模型訓 練與分類器特性。本論文即在此思維下提出嶄新的鑑別式特徵轉換方法,稱為普遍化相 似度比率鑑別分析(generalized likelihood ratio discriminant analysis, GLRDA),其旨在利 用相似度比率檢驗(likelihood ratio test)的概念尋求一個維度較低的特徵空間。在此子空 間中,我們不僅考慮了全體資料的異方差性(heteroscedasticity),即所有類別之共變異矩 陣可被彈性地視為相異,並且在分類上,因著我們也將類別間最混淆之情況(由虛無假 設(null hypothesis)所描述)的發生率降至最低,而達到有助於分類正確率提升的效...

متن کامل

以語言模型判斷學習者文句流暢度(Analyzing Learners 'Writing Fluency Based on Language Model)[In Chinese]

由於現代科技以及 3C 產品的普及,使得孩子頻繁的接觸電視、網路、手機...等,因此 容易缺乏與人之間互動、溝通以及情感的表達,相對的,學生寫的作文常常是以流水帳 交代經過,有的學校甚至不考作文,但隨著教育政策的變動,國中教育會考加入了作文 評量的項目,使的作文再度受到學生及家長的重視。可是受限於學校教學時數,作文較 弱的學生容易缺少補救的機會。我們認為未來自學作文以及在家練習,可以藉由自動化 的作文教學系統輔助。而本系統開發作文教學系統之句子流暢度偵測,經由系統回饋的 診斷結果可以讓學生對詞句組合的理解力有所提升,幫助學生寫出較流暢的句子,藉此 提高他們的作文分數。系統所依賴的 N-gram 語言模型,它的特性是計算字詞間組合的 機率,機率越高的話字詞組合的正確性越高也就是越流暢,而語言模型效果相當依賴大 型的訓練語料,這是語言模型然能待克服的缺點,例如資料稀疏(Data spar...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2009